[1] 6
Introducción a al paquete R
PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES, PM CEV …
Puedes encontrarme en:
setwd(mi/ruta/)getwd()Una de las maneras más sencillas de transformar, organizar y resumir los datos es usando el paquete dplyr
dplyr es del entorno tidyverse|> o %>%filter(condición)select(var1, var2, ...)arrange(var) o arrange(-var)mutate(operación)summarise()|>, %>%Permite realizar varias operaciones antes de guardar el resultado en un objeto
| Operador | Definición |
|---|---|
< |
es menor que |
<= |
es menor o igual que |
> |
es mayor que |
>= |
es mayor o igual que |
== |
es exactamente igual a |
!= |
es diferente de |
| Operador | Definición |
|---|---|
x & y |
x Y y |
x \| y |
x O y |
is.na(x) |
x es NA (valor faltante) |
!is.na(x) |
x no es NA |
x %in% y |
está x en y |
!(x %in% y) |
no está x en y |
Crear un subconjunto de datos desde la ENSIN con los registros de Bogotá y que sean personas de estrato 3 o menos.
library(pacman)
p_load(tidyverse, haven)
url <- "https://github.com/jgbabativam/AnaDatos/raw/main/datos/ENSIN.sav"
ensin <- read_sav(url)
#glimpse(ensin)
#--> Filtro de registros de Bogotá y estrato menor o igual que 3
df_filt <- ensin |>
filter(departamento == 11 & Estrato <= 3)
nrow(df_filt)[1] 1111
El verbo select(var1, var2, ...) permite conservar solo las variables de interés.
df_filt <- ensin |>
filter(departamento == 11 & Estrato <= 3) |>
select(llavehog, llaveper, region, departamento, Estrato, edad, sexo)
head(df_filt)# A tibble: 6 × 7
llavehog llaveper region departamento Estrato edad sexo
<chr> <chr> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl> <dbl+lbl>
1 46010101 4601010103 5 [Bogotá] 11 [Bogotá] 3 32 2 [Mujer]
2 46020101 4602010104 5 [Bogotá] 11 [Bogotá] 2 13 2 [Mujer]
3 46020101 4602010105 5 [Bogotá] 11 [Bogotá] 2 6 2 [Mujer]
4 46020201 4602020103 5 [Bogotá] 11 [Bogotá] 2 0 2 [Mujer]
5 46020201 4602020105 5 [Bogotá] 11 [Bogotá] 2 0 2 [Mujer]
6 46020301 4602030103 5 [Bogotá] 11 [Bogotá] 2 16 2 [Mujer]
R for data science. Section 3. Data visualization. Disponible aquí
Dougherty, J. and Ilyankou, I. (2022) Hands-On Data Visualization. Interactive Storytelling from Spreadsheets to Code. Section 6. Chart Design Principles. Disponible aquí
Williams, G. (2022) Data Science Desktop Survival Guide. Togaware. Disponible aquí Chapter 2 introducing R
Jadey Ryan. Reproducible reports and presentations with Quarto. Disponible aquí
Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.
Si se copia parcial o totalmente, debe citar la fuente como:
Babativa-Márquez, J.G. Materiales del curso de Analítica de Datos. URL: https://github.com/jgbabativam/AnaDatos.
Diapositivas disponibles en GitHub.